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Abstract 


L'intelligenza artificiale (IA) è sempre più presente nella vita di tutti i giorni. Notevoli passi avanti vengo- 
no compiuti giornalmente per cercare di facilitare il lavoro dell'uomo sviluppando algoritmi sempre più 
performanti. La stessa intelligenza artificiale è sempre più utilizzata nella modifica e creazione di imma- 
gini aiutando professionisti ed appassionati della fotografia e della creatività, Questo continuo sviluppo 
ci spinge ad interrogarci se le creazioni fatte utilizzando la IA posso essere considerate arte o meno e se 
e creazioni artistiche dell'uomo possono essere messe a confronto con quelle realizzate in IA. 

L'articolo qui presentato analizza l’uso della IA nel campo delle arti pittoriche e visive affrontando due 
temi importanti: l'uso della IA come strumento di indagine e l'uso della IA come supporto creatività. 
Per il secondo tema viene proposto il risultato di una sperimentazione che vede il confronto tra la 
fotografia scattata da un professionista e le immagini realizzate in IA da tre reti neurali disponibili online. 
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Fig. |. Risultato ottenuto 
alla richiesta fatta a Stable 
Diffusion 1.5 di creare una 
rappresentazione umana 
dell'intelligenza artificiale. 


Introduzione 


L'intelligenza artificiale (IA) (fig. |), nel vasto panorama in cui può essere considerata, è oggi 
una realtà sempre più presente nella vita di tutti i giorni. Le applicazioni social come Instagram 
la impiegano per consigliarci quale immagine vedere in base alle ultime scelte effettuate; nella 
filmografia è stata impiegata in vari ambiti come, ad esempio, per realizzare il combattimento 
di massa all'interno del film Il Signore degli Anelli. Nel 2016 IBM ha utilizzato una piattaforma 
di intelligenza artificiale chiamata Watson per realizzare il primo trailer del film di fantascienza 
Morgan. | ricercatori, dopo aver selezionato oltre 10 trailer di film horror tagliati in spezzoni, 
hanno chiesto alla IA di analizzare effetti visivi, sonori e compositivi per realizzare 10 scene 
per un totale di 6 minuti. Il risultato finale è stato poi montato da un operatore riducendo 
notevolmente tempi e costi di produzione. 

Nel 2019 è stato dato vita al progetto di una intera sitcom, Nothing, Forever, generata da intel- 
igenza artificiale sia per i contenuti che per la grafica. Nata dall'idea di Skyler Hartle, product 
manager di Microsoft Azure, e Brian Habersberger, fisico dei polimeri, è stato reso possibile 
a creazione di una classica sitcom americana in live streaming utilizzando vari algoritmi di IA 


come GPT-3 di OpenAi, DALL-E e Azure Cognitive Service. La grafica 3D, semplice e a bassa 
risoluzione, viene trasmessa in modo continuato tramite la funzione chat di Twich (servizio 
di streaming live interattivo dedicato a giochi, intrattenimento, sport, musica e molto altro). 
Gli utenti collegati online possono interagire in live streaming modificando la narrazione con | 
commenti rendendo praticamente infinita la sua durata. 
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Fig. 2. Struttura di 

una tipica CNN per 

la classificazione delle 
immagini. Una rete CNN 
è una rete costituita da 
più stadi e, similarmente 
a quanto succede nella 
corteccia visiva, ogni 
stadio è specializzato a 
fare cose diverse. 


Altri esempi di algoritmi sempre più performanti sono impiegati per facilitare operazioni 
complesse come il ritocco di una immagine o la scelta della migliore esposizione per una 
fotografia professionale. Il campo di applicazione si allarga sempre di più ogni giorno e rende 
anche difficile, se non impossibile in alcuni casi, la distinzione tra quello che è opera umana da 
quello che è invece il risultato sintetico di una operazione algoritmica. A tal proposito la so- 
cietà di ricerca OpenAl, conosciuta principalmente per lo sviluppo di ChatGPT, ha rilasciato 
un nuovo strumento, chiamato Al Text Classifier, che ha come obbiettivo quello di distinguere 
e quindi rivelare se un testo è stato scritto dall'intelligenza artificiale o da un essere umano. 
Ancora in fase di sviluppo, la società chiarisce che lo strumento “può sbagliare a classificare 
sia il testo generato dall'intelligenza artificiale sia quello scritto dall'uomo". 


IA nelle arti pittoriche 


Anche nelle arti pittoriche possiamo trovare un forte utilizzo della IA. La sempre più crescente 
richiesta di digitalizzazione delle opere d'arte per la loro condivisione tramite il web ha reso 
possibile nuove prospettive di ricerca sia nel campo della catalogazione che nella sperimenta- 
zione di nuove forme di arte. Le opere, trasformate in sequenza di dati e svincolate dal loro 
supporto fisico della tela, acquisiscono informazioni, caratterizzandole ed arricchendole nella 
oro complessità, evidenziando dettagli difficilmente comprensibili, oltre ad aggiungere indica- 
zioni puntuali come scelte artistiche che l'artista ha voluto utilizzare. Nascono così collezioni 
digitali ricche di informazioni che, inevitabilmente, spingono i ricercatori ad affrontare nuovi 
temi di ricerca come la classificazione automatica, il riconoscimento di oggetti, il recupero di 
informazioni e concetti, la datazione, la tecnica, ecc... 

Con l'introduzione delle reti neurali convolutive (Convolutional Neural Networks: CNN), reti che 
si ispirano al processo utilizzato dagli esseri umani e dagli animali nell'interpretazione e nella 
percezione del mondo circostante, sono stati compiuti progressi epocali (fig. 2). In Karayev 
[Karayev et al. 2014] la rete Image Net [Deng et al. 2009], utilizzando un grande set di immagini 
etichettate a mano, ha superato le aspettative iniziali di riconoscimento di oggetti raggiungendo 
come obbiettivo quello dell'identificazione dello stile. Altre sperimentazioni di utilizzo di reti 
CNN hanno avuto risultati altamente apprezzabili per il riconoscimento dell'artista [David, 
Netanyahu 2016], dello stile [Bar 201 4] e per la classificazione di genere [Cetinic, Grgic 201 6]. 
Queste reti, implementate con nuovi algoritmi, hanno raggiunto notevoli risultati nell'esplo- 
razione del contenuto delle opere d'arte riconoscendo, in modo automatico, oggetti e volti. 
Sviluppi di questi algoritmi mostrano come sia possibile determinare la posizione nei dipinti di 
questi riconoscimenti e classificare, in base al genere e altre caratteristiche, i volti delle figure 
rappresentate. 


IA per la creazione di arte visive 


La creazione di arte visiva, intesa in tutte le sue sfaccettature, viene sperimentata già negli 
anni '50. L'opera di Frieder Nake del 1967 può essere vista una prima opera d'arte com- 
puterizzata astratta, ora esposta al museo Tate Modern di Londra, è principalmente una 
sperimentazione dell'uso di algoritmi per produrre una rappresentazione determinata e ma- 
nipolata dall'autore. 


Feature maps 


Convolutions Subsampling Convolutions Subsampling Fully connected 
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La nascita delle reti GAN (Generative Adversarial Network) [Goofellow et al. 2014] ha cam- 
biato drasticamente l'interazione del computer anche nelle arti visive (fig. 3). La rete GAN 
ha come presupposto quello di apprendere in modo automatico tramite l'interazione di due 
reti neurali in modo competitivo. Da un lato la rete generativa, modello generativo, produce 
nuovi dati che vengono analizzati da un'altra rete, modello discriminativo, che li classifica 
come dati reali o falsi. L'apprendimento risulta completato quando il modello discriminatorio 
non riesce a distinguere i dati reali da quelli falsi. Esempio delle potenzialità che queste reti 
possono raggiungere è stato dimostrato nel 2018 da NVIDIA con la generazione di volti 
umani iperrealistici [Tero et al. 2018]. 


Dataset di T © Pdata Discriminatore Generati/Reali? 


addestramento D(x: 02) 
Funzione 
obiettivo 
I 
I 
Generatore l 
G(z; 0) ! 
Fig, 3. Schema di una rete p 7. Linea 4 


Retropropagazione 


generativa awersaria. 


Recentemente i modelli GAN sono stati superati dall'introduzione dei modelli di diffusio- 
ne che prendono ispirazione dal principio fisico dei gas. Le molecole di un gas tendono 
naturalmente a spostarsi da uno spazio ad alta densità verso uno a bassa densità. Il motivo 
principale per questo cambiamento è che i modelli a diffusione sono modelli generativi che, 
una volta appresi i dati di input, possono generare nuovi set di dati simili a quelli impiegati per 
‘addestramento. Proprio per questa natura generativa, questi modelli vengono sempre più 
impiegati per la generazione di immagini, video e testo. 
Tra i modelli di generazione di immagini più utilizzanti al momento possiamo individuare: 
DALLE-2, Midjourney e Stable Diffusion. DALLE-2, sviluppato da Open Al e incorpora al 
suo interno le reti neurali VQGAN e CLIP (impiegate anche negli altri due strumenti), oltre 
a GPT-3 per la conversione da testo a immagine. DALLE-2 utilizza 3,5 miliardi di parametri, 
una significativa riduzione rispetto ai |2 miliardi utilizzati nel suo predecessore; tuttavia, GPT- 
3 utilizza |75 miliardi di parametri. 

Midjourney, sviluppato da David Holz, utilizza CLIP ed è in continuo aggiornamento. 

Stable Diffusion è stato sviluppato da Stability /Ai ed è stato reso accessibile nel 2022. Da 
allora è possibile scaricare il codice sorgente. 

La generazione di immagini da parte di questi tre modelli è differente ed è interessante come 
a conversione di una stessa riga testuale possa creare immagini con dettagli ed attenzioni 
diverse. Prendendo come esempio una delle dieci immagini vincitrici del concorso fotogra- 
fico indetto dal National Geographic scattata da Alex Berger [|] (fig. 4) è possibile richiedere 
alle tre reti di simulare una immagine simile. In tutti e tre sistemi vengono proposte quattro 
risultati che l'utente può scegliere di perfezionare e modificare. Il testo inserito per la rea- 
lizzazione di queste immagini è: ‘Fotografia pluripremiata della foresta austriaca, autunno, 
albero con foglie gialle visibile tra i tronchi degli alberi, fotografia professionale, luce naturale, 
obiettivo Canon, scatto con dslr 64 megapixel messa a fuoco nitida, Fotografia professionale”. 
Il risultato ottenuto è variegato e si notano immediatamente differenze nette. Midjouney 
(fig. 5) è forse quello più creativo e cerca di proporre differenti soluzioni, oltre ad avere una 
illuminazione più accentuata. DALLE-2 (fig. 6) ha creato immagini con un punto di vista più 
ravvicinato ed utilizza la profondità di campo per indirizzare l'attenzione dell'osservatore. 
Stable diffusion (fig. 7) crea invece immagini non perfettamente coerenti con la richiesta, ma 
molto più dettagliate e cariche di colore. Il fogliame giallo è molto più dettagliato rispetto alle 
altre due IA e risulta più facile da leggere. 
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Fig. 4. Fotografia scattata 
da Alex Berger di (to 

see the full gallery of 
winners, visit natgeo.com/ 
PhotoContestWinner). 


Fig. 5. Risultato prodotto 
da Midjourney. 


è 
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Conclusioni 


| sistemi di generazione di immagine basati su stringhe testuali sta sempre più prendendo 
piede favorendo la nascita di nuovi applicativi a pagamento ed open source. Le creazioni che 
ne derivano creano un ecosistema di immagini digitali che può raggiungere un alto livello 
di dettaglio e qualità. Prendendo in considerazione l'aspetto creativo che questi strumenti 
possono offrire, la domanda che nasce è se questa possa essere chiamata arte non solo da 
un punto di vista tecnico, ma anche da quello più prettamente umano. Sawyer, psicologo 
americano, definisce la creatività come “parte di ciò che ci rende umani” [Sawyer 2014]. Le 
macchine e gli algoritmi che generano queste immagini possono essere messi a confronto 
con l'intelligenza umana e definire in questo modo un parallelismo tra quello che è creatività 
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Fig. 6. Elaborazione di 
DALLE-2. 


Fig. 7. Elaborazione eseguita 
con Stable Diffusion. 


umana e creatività generata da una intelligenza artificiale? La risposta non sembra essere di 
facile risoluzione. Zhao Tingyang afferma che il dialogo tra intelligenza e coscienza avviene 
nel linguaggio [Zhao 2019]. Se un'intelligenza artificiale ha il suo linguaggio universale, allora 
l'IA può avere coscienza. Con questa affermazione potremmo quindi confrontare la IA con 
intelligenza umana per definire il grado di creatività che può raggiungere. Allo stesso tem- 
po sempre Sawyer afferma che “sebbene i programmi informatici artificialmente intelligenti 
detengano il titolo mondiali di scacchi e siano in grado di sviscerare montagne di dati e di 
indentificare schemi invisibili all'occhio umano, non sono ancora in grado di padroneggiare 
le abilità creative quotidiane” [Sawyer 2014]. Potremmo anche affermare che essendo la |A, 
come definito precedentemente, un insieme di algoritmi che prendono spunto da un dataset 
preimpostato, non ha ancora acquisito uno status di ontologicamente indipendente e che 
quindi non è capace di creare opere in modo indipendente [Liu 2017]. Hardware e software 
sempre più performanti stanno per rendere quasi irriconoscibile il divario tra opera umana e 
opera artificiale, soprattutto quando l'immagine richiesta è artistica e stilizzata. 

La generazione di immagini e delle risposte che vengono fornite dalla IA è ancora demandata 
alla descrizione che viene fatta dall'operatore. Soprattutto nel campo delle arti visive la scelta 
di quale sia l’immagine migliore, quella che non contiene errori e che sia più coerente con il 
pensiero dell’ideatore sono punti ancora non risolti dall'IA. Lacune che stanno sempre più 
riducendosi e che introducono il nuovo tema di confronto: creatività della IA paragonabile o 
superiore a quella umana. 


Note 
[I] Durante un viaggio attraverso le Alpi austriache, Alex Berger ha individuato una strada a una corsia che serpeggiava tra le 


montagne e tornava sulla mappa. Lo seguì lungo un piccolo ruscello fiancheggiato da muri di foresta quando vide questo albero 
dorato che fioriva tra i tronchi. C'è “una dimensione ispirata alla fantasia per me’, dice Berger, “che mi fa venire la pelle d'oca". 


Riferimenti bibliografici 


Bar Y., Levy N., Wolf L. (2014). Classification of artistic styles using binarized features derived from a deep neural network. In 
Computer Vision - ECCV 2014. Workshops. Zurigo, 6-7 e 12 settembre 2014, parte |, pp. 71-84. Cham: Springer. 


Cetinic E., Grgic S. (2016). Genre classification of paintings. In Atti del 58° Simposio Internazionale IEEE, ELMAR-2016, Zadar, 
Croatia | 2-|4settembre 2016, pp. 201-204. 


David O. E., Netanyahu N. S. (2016). Deep painter: Painter classification using deep convolutional autoen - coders. In Artificial 
Neural Networks and Machine Learning - ICANN 201 6. Atti del 25° Convegno Internazionale Artificial Neural Networks. Barcellona, 
6-9 settembre 2016, parte II, pp. 20-28. Cham: Springer. 


Deng J., Dong W, Socher R. et al. (2009). Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern 
Recognition, 2009. CVPR 2009. IEEE Conference. Miami, 20-25 giugno 2009, pp. 248-255. IEEE. 


Karayev S. et al. (2014). Recognizing image style. In M.F. Valstar, A.P French, T.P. Pridmore (a cura di). British Machine Vision 
Conference, BMVC 2014. Nottingham, 1-5 settembre 2014, pp. 1-20. BMVA. 


Liu R. (2017). Will Artificial Intelligence Replace Artists? In Natl. Art Res. 2017, n. 30, pp. 71-76. 
Sawyer R.K. (2014). Explaining Creativity: The Science of Human Innovation. New York: Oxford University Press. 


Tero K., Samuli L., Timo A. (2018). A Style-Based Generator Architecture for Generative Adversarial Networks. In arXiv, 12 dicembre 
2018. <arXiv:1812.04948>, (consultato il 2 febbraio 2023). 


Zhao T. (2019). How Could Al Develop Its Self-consciousness? In J. Dial. Nat., n. 41, pp. 1-8. 


Autore 
Carlo Battini, Università degli Studi di Genova, carlo.battini@unige.it 


Per citare questo capitolo: Battini Carlo (2023). Intelligenza artificiale tra scienza e creatività. Casi studio nelle arti visive/Artificial Intelligence be- 
tween Science and Creativity. Case Studies in the Visual Arts. In Cannella M., Garozzo A., Morena S. (a cura di). Transizioni. Atti del 44° Convegno 


Internazionale dei Docenti delle Discipline della Rappresentazione/Transitions. Proceedings of the 44th International Conference of Representation Discipli- 
nes Teachers. Milano: FrancoAngeli, pp. 2380-2393. 


Copyright © 2023 by FrancoAngeli s.r.l. Milano, Italy Isbn 9788835155119 


2386 


y 
44' International Conference 
of Representation Disciplines Teachers 
Congress of Unione Italiana per il Disegno 


Artificial Intelligence between Science 
and Creativity. Case Studies in the 
Visual Arts 


Carlo Battini 


Abstract 


Artificial intelligence (Al) is increasingly present in everyday life. Considerable steps forward are made 
daily to try to facilitate man’s work by developing ever more performing algorithms. The same artificial 
intelligence is also increasingly used in the editing and creation of images, helping professionals and en- 
thusiasts in the field of photography and creativity. This continuous development raises two questions: 
can creations made using Al be considered art? Can human-made artistic creations be compared to 
those made in Al? 
The article presented here analyzes the use of AI in the field of pictorial and visual arts by addressing 
two important issues: the use of Al as an investigative tool and the use of Al as a creative support. For 
the second theme, the result of an experiment is proposed which sees the comparison between a 
photograph taken by a professional and images created in Al by three neural networks available online. 


Keywords 
Artificial Intelligence, Creativity, Pictorial Arts, Visual Arts, Photography 


Result obtained from 
the request made in 
Midjourney to represent 
artificial intelligence. 
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Fig. |. Result obtained 
when requesting Stable 
Diffusion |.5 to create a 
human representation of 
artificial intelligence. 


Introduction 


Artificial intelligence (Al) (fig. |), in the vast panorama in which it can be considered, is today 
an increasingly present reality in everyday life. Social applications such as Instagram use it to 
advise us which images to see based on the last choices made; in the filmography it has been 
used in various fields such as, for example, to create mass combat within the film The Lord 
of the Rings. In 2016, IBM used an Al platform called Watson to make the first trailer for the 
science fiction film Morgan. The researchers, after selecting over 10 horror movie trailers 
cut into clips, asked the Al to analyze visual, sound and composition effects to make 10 scenes 
for a total of 6 minutes. The result was then assembled by an operator, significantly reducing 
production times and costs. 
In 2019, the project of an entire sitcom, Nothing, Forever, was created, generated by artificial 
intelligence for both content and graphics. The brainchild of Microsoft Azure product man- 
ager Skyler Hartle and polymer physicist Brian Habersberger made possible the creation of 
a classic American sitcom in live streaming using various Al algorithms such as OpenAi's GPT- 


3, DALL-E and Azure Cognitive Service. Simple, low-resolution 3D graphics are streamed 
continuously via Twich's chat function (interactive live streaming service dedicated to games, 
entertainment, sports, music and more). Users connected online can interact in live stream- 
ing by modifying the narration with comments making its duration practically infinite. 

Other examples of increasingly performing algorithms are used to facilitate complex oper- 
ations such as retouching an image or choosing the best exposure for a professional photo- 
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Fig. 2. Structure of a 
typical CNN for image 
classification. A CNN 
network is a network 
made up of several 
stages and, similarly to 
what happens in the 
visual cortex, each stage 
is specialized to do 
different things. 


graph. The field of application widens more and more every day and also makes it difficult, 
if not impossible in some cases, to distinguish between what is a human work and what is 
instead the synthetic result of an algorithmic operation. In this regard, the research company 
OpenAl, known mainly for the development of ChatGPT, has released a new tool, called Al 
Text Classifier, which aims to distinguish and therefore reveal whether a text has been writ- 
ten by artificial intelligence or by a human being. Still in development, the company clarifies 
that the tool “can misclassify both Al-generated and human-written text". 


Al in pictorial arts 


Even in the pictorial arts we can find a strong use of Al. The ever-increasing demand for the 
digitization of works of art for their sharing via the web has made possible new research 
perspectives both in the field of cataloging and in experimenting with new forms of art. The 
works, transformed into a sequence of data and released from their physical support of 
the canvas, acquire information, characterizing and enriching them in their complexity, high- 
lighting details that are difficult to understand, as well as adding punctual indications such as 
artistic choices that the artist wanted to use. This is how digital collections rich in information 
are born which, inevitably, push researchers to tackle new research topics such as automatic 
classification, object recognition, information and concepts recovery, dating, technique, etc... 
With the introduction of Convolutional Neural Networks (CNN), networks that are in- 
spired by the process used by humans and animals in the interpretation and perception of 
the surrounding world, epochal progress has been made (fig. 2). In Karayev [Karayev et al. 
2014] the Image Net network [Deng et al. 2009], using a large set of hand-labelled images, 
has exceeded the initial expectations of object recognition by reaching the goal of object 
identification style. Other experiments using CNN networks have had highly appreciable 
results for the recognition of the artist [David, Netanyahu 2016], of the style [Bar 2014] and 
for the classification of genre [Cetinic, Grgic 201 6]. 

These networks, implemented with new algorithms, have achieved remarkable results in 
exploring the content of works of art by automatically recognizing objects and faces. De- 
velopments of these algorithms show how it is possible to determine the position of these 
recognitions in the paintings and to classify the faces of the represented figures based on 
gender and other characteristics. 


Al for creating visual art 


The creation of visual art, understood in all its facets, was already experimented in the 1950s. 
Frieder Nake's 1967 work can be seen an early abstract computer artwork, now exhibited 
in the Tate Modern Museum in London, is primarily an experimentation in the use of algo- 
rithms to produce a representation determined and manipulated by the author. 


Feature maps 


Convolutions 
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Subsampling Subsampling Fully connected 
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The birth of GAN networks (Generative Adversarial Network) [Goofellow et al. 2014] has 
drastically changed computer interaction also in the visual arts (fig. 3). The GAN network 
has the premise of learning automatically through the interaction of two neural networks in 
a competitive way. On the one hand, the generative network, a generative model, produces 
new data that is analyzed by another network, a discriminative model, which classifies them 
as real or false data. Learning is complete when the discriminatory model fails to distinguish 
real data from false data. An example of the potential that these networks can achieve was 
demonstrated in 2018 by NVIDIA with the generation of hyper-realistic human faces [Tero 
et al. 2018]. 


Dataset di T  Pdata Discriminatore 
addestramento D(x: 0a) 


Generati/Reali? 


Funzione 
obiettivo 


Generatore 
G(z;9,) 


em . ew ew oe [ 


Fig. 3. Schema of an 
adversarial generative 
network. 


Retropropagazione 


GAN models have recently been superseded by the introduction of diffusion models in- 
spired by the physical principle of gases. The molecules of a gas naturally tend to move from 
a high-density space to a low-density one. The main reason for this change is that diffusion 
models are generative models which, once they learn the input data, can generate new 
datasets like those employed for training. Due to this generative nature, these models are 
increasingly used for the generation of images, videos and text. 

Among the most used image generation models at the moment, we can identify: DALLE-2, 
Midjourney and Stable Diffusion. DALLE-2, developed by Open Al and incorporates the 
VQGAN and CLIP neural networks (also used in the other two tools), as well as GPT-3 for 
text-to-image conversion. DALLE-2 uses 3.5 billion parameters, a significant reduction from 
the 12 billion used in its predecessor; however, GPT-3 uses |75 billion parameters. 
Midjourney, developed by David Holz, uses CLIP and is continuously updated. 

Stable Diffusion was developed by Stability Ai and was made accessible in 2022. The source 
code can be downloaded since then. 

The generation of images by these three models is different and it is interesting how the con- 
version of the same text line can create images with different details and attentions. Taking 
as an example one of the 10 winning images of the National Geographic photo competition 
taken by Alex Berger [1] (fig. 4) it is possible to ask the three networks to simulate a similar 
image. In all three systems, four results are proposed that the user can choose to refine and 
modify. The text inserted for the realization of these images reads: “Award-winning photo- 
graph of the Austrian forest, autumn, tree with yellow leaves visible between tree trunks, 
professional photography, natural light, Canon lens, shot with 64 megapixel dslr, sharp focus, 
professional photography" 

The result obtained is varied and clear differences are immediately noticeable. Midjouney 
fig. 5) is perhaps the most creative and tries to propose different solutions, as well as having 
more accentuated lighting. DALLE-2 (fig. 6) created images with a closer point of view and 
uses depth of field to direct the attention of the observer. Stable diffusion (fig. 7) instead 
creates images that are not perfectly consistent with the request, but much more detailed 
and fuller color. The yellow foliage is much more detailed than the other two Als and is easier 
to read. 
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Fig. 4. Photograph taken 
by Alex Berger of (to 

see the full gallery of 
winners, visit natgeo.com/ 
PhotoContestWinner). 


Fig. 5. Result produced by 
Midjourney. 


Conclusion 


Image generation systems based on textual strings are increasingly gaining ground, favoring 
the emergence of new paid and open-source applications. The resulting creations create an 
ecosystem of digital images that can achieve a high level of detail and quality. Taking into con- 
sideration the creative aspect that these tools can offer, the question that arises is whether 
this can be called art not only from a technical point of view, but also from a more purely 
human one. Sawyer, an American psychologist, defines creativity as “part of what makes us 
human” [Sawyer 2014]. Can the machines and algorithms that generate these images be 
compared with human intelligence and thus define a parallelism between what is human 
creativity and creativity generated by an artificial intelligence? The answer doesn't seem to be 
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Fig. 6. Elaboration of 
DALLE-2. 


Fig. 7. Processing 
performed with Stable 
Diffusion. 


easy to resolve. Zhao Tingyang says that the dialogue between intelligence and consciousness 
takes place in language [Zhao 2019]. If an Al has its own universal language, then Al can have 
consciousness. With this statement we could then compare Al with human intelligence to 
define the degree of creativity it can achieve. At the same time Sawyer always states that 
“although artificially intelligent computer programs hold the world chess title and are able 
to dissect mountains of data and identify patterns invisible to the human eye, they are still 
not able to master the daily creative skills“ [Sawyer 2014]. We could also state that since 
Al, as defined above, is a set of algorithms that take their cue from a pre-set dataset, it has 
not yet acquired an ontologically independent status and is therefore not capable of creating 
works independently. Increasingly performing hardware and software are about to make the 
gap between human work and artificial work almost unrecognizable, especially when the 
requested image is artistic and stylized. 

The generation of images and the answers that are provided by the Al is still left to the de- 
scription that is made by the operator. Especially in the field of visual arts, the choice of which 
image is the best, the one that does not contain errors and which is more coherent with the 
creator's thought are points that have not yet been resolved by Al. Gaps that are increasingly 
shrinking and that introduce the new theme of comparison: Al creativity comparable or 
superior to human creativity. 


Notes 


[I] On a journey through the Austrian Alps, Alex Berger spotted a one-lane road that meandered through the mountains 
and back onto the map. He followed it along a small stream flanked by forest walls when he saw this golden tree blossoming 
between the trunks. There's “a fantasy-inspired dimension to me,” says Berger, “that gives me goosebumps". 
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